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摘要 : 【 目的】 中文 机 构 名 结构 复杂 、 罕 见 词 多 , 识别 难度 大 , 对 其 进行 正确 识别 对 于 信息 抽取 、 信 息 检索 、 知 
识 挖 所 和 机 构 科 研 评价 等 情报 学 中 的 后 续 任务 意义 重大 。[【 方法 ) 基 于 深度 学 习 的 循环 神经 网 络 (Recurrent Neural 
Network，RNN) 方 法 ,面向 中 文 汉字 和 词 的 特点 , 重新 定义 了 机 构 名 标注 的 输入 和 输出 , 提出 汉字 级 别 的 循环 网 
络 标注 模型 。【 结果 】 以 词 级 别 的 循环 神经 网 络 方法 为 基准 , 本 文 提 出 的 字 级 别 模型 在 中 文 机 构 名 识别 的 准确 率 、 
召回 率 和 了 值 均 有 明显 提高 ,其 中 下 值 提 高 了 1.54%。 在 包含 罕见 词 时 提高 更 为 明显 ,F 值 提 高 了 11.05%。[ 局 
限 ] 在 解码 时 直接 使 用 了 贪心 策略 , 易于 陷入 局 部 最 优 ， 如果 使 用 条 件 随机 场 算法 进行 建 模 可 能 获取 全 局 最 优 结 
果 。[ 结论 】 本 文 方法 构架 简单 ， 能 利用 到 汉字 级 别 的 特征 来 进行 建 模 ， 比 只 使 用 词 特征 取得 了 更 好 的 结果 。 
关键 词 : 机 构 名 识别 ”循环 神经 网 络 ”深度 学 习 
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的 特征 ， 人工 设计 了 区 分 性 强 的 特征 模板 , 然后 使 用 
1 引 一 个 强大 的 序列 化 标注 模型 进行 标注 , 取得 了 较 好 的 
机 构 泛 指 机 关 、 团 体 或 其 他 企 事业 单位 , 包括 院 ”识别 效果 。 但 是 , 此 类 方法 依赖 于 专家 的 领域 知识 , 在 
校 、 公 私企 业 、 政 府 部 门 、 宗 教 组 织 、 科 研 部 门 、 国 。 ”不 同类 型 的 语 料 上 难以 移植 和 泛 化 。 近 年 来 , 通过 深 
际 组 织 、 体 育 团 队 、 音 乐团 体 、 军 队 等 由。 机 构 名 的 。” 度 学 习 的 策略 , 基于 循环 神经 网 络 的 方法 在 英文 的 序 
识别 效果 对 信息 抽取 、 信 息 检索 、 知 识 挖 气 和 机 构 科 ” 列 化 标注 领域 取得 了 较 大 的 成 功 , 包括 词性 标注 、 汉 
研 评价 等 后 续 任 务 起 着 重要 的 影响 。 然 而 ,中文 机 构 。 语 分 词 、 组 块 分 析 、 命 名 实体 识别 和 语义 角色 标注 等 
名 中 罕见 词 多 、 结 构 复 杂 , 不 同 机 构 的 名 称 差异 性 较 ”任务 9。 循环 神经 网 络 不 特别 需要 人 工 制定 规则 , 可 
大 , 这 些 问题 对 正确 识别 机 构 名 带 来 了 很 大 的 挑战 。 以 自行 从 分 布 式 词 向 量 中 学 习 出 特征 以 供 标注 使 用 ， 
中 文 机 构 名 识别 可 以 看 做 一 个 序列 化 标注 问题 ， “逐渐 成 为 研究 的 热点 。 
基于 人 工 特 征 模板 的 模型 是 解决 这 一 类 问题 的 主要 手 循环 神经 网 络 的 主要 输入 是 词 向 量 , 词 向 量 的 质 
段 , 使 用 的 算法 包括 条 件 随 机 场 趾 、 支 持 向 量 机 BI 和 最 。 量 直 接 决定 了 系统 的 性 能 。 对 于 罕见 词 , 模型 不 能 获 
大 业 模 型 曙 ， 这 一 类 方法 面向 中 文 机 构 名 内 部 和 外 部 。 取 足 够 的 上 下 文 信息 ,， 因此 学 习 出 的 词 向 量 质量 很 
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差 。 有 些 研究 使 用 复杂 的 规则 ， 从 汉字 中 获取 信息 以 
强化 词 向 量 中 的 信息 。Chen 等 使 用 词 中 的 每 一 个 字 来 
加 强 中 文 词汇 的 词 向 量 , 为 了 解决 字 的 政 义 性 ,首先 
对 字 进 行 聚 类 , 对 不 同类 中 的 字 使 用 不 同 的 字 向 量 门 。 
Sun 等 使 用 部 首 对 中 文 词 向 量 进行 加 强 , 在 比较 字 相 
似 度 任务 和 中 文 分 词 任务 上 取得 一 定 提高 由。 

然而 , 构架 简单 、 易 于 泛 化 是 循环 神经 网 络 的 主 
要 优势 , 这 些 复 杂 的 词 向 量 增强 方法 虽然 可 以 一 定 程 
度 上 解决 词 向 量 信息 稀 玻 的 问题 , 却 由 于 规则 复杂 、 
实现 困难 ， 弱 化 了 循环 神经 网 络 的 优势 。 针 对 以 上 问 
题 ， 本 文 提出 一 种 完全 基于 汉字 的 中 文 机 构 名 识别 方 
法 , 重新 定义 了 模型 的 输入 和 输出 。 输 入 为 汉字 和 空 
格 , 输出 为 一 套 新 的 机 构 名 标记 。 该 方法 结构 简单 、 
易于 实现 , 不 需要 添加 任何 人 工 规则 和 外 部 资源 。 

本 文 的 贡献 主要 有 两 点 : 将 循环 神经 网 络 应 用 到 
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构 名 识别 中 的 作用 , 采取 Viterbi 算法 对 切 分 结果 进行 
角色 标注 , 在 角色 序列 的 基础 上 , 进行 字符 串 识别 , 最 
终 实 现 中 文 机 构 名 的 识别 55。 关 晓 烛 等 提出 一 种 自动 构 
建 用 户 查 询 日 志 机 构 名 训练 语 料 的 方法 ,解决 目前 用 
户 查询 日 志 语 料 资源 匮乏 的 问题 中 ,利用 粘 合 度 概 念 解 
决 信息 不 对 称 问题 , 结合 上 下 文 等 信息 , 采用 条 件 随 机 
场 模型 进行 机 构 名 识别 。 基 于 统计 的 方法 在 不 同 的 语 料 
上 可 以 有 效 识别 出 机 构 名 , 但 依赖 于 专家 对 具体 语 料 
提出 的 规则 和 特征 模板 , 方法 复杂 且 难 以 移植 。 
2.2 ”循环 神经 网 络 

循环 神经 网 络 在 许多 英文 序列 化 标注 任务 上 表现 
出 强劲 的 标注 能 力 , 在 循环 神经 网 络 的 算法 框架 下 ， 
使 用 长 短期 记忆 模块 (Long Short Term Memory, 
LSTMD) 来 代替 基本 的 TANH 模块 会 取得 更 好 的 效果 。 
Huang 等 使 用 双向 LSTM 进行 序列 化 标注 ， 并 在 输出 


中 文 机 构 名 识别 任务 上 , 验证 了 使 用 深度 学 习 进行 中 
文 机 构 名 识别 的 有 效 性 ; 针对 中 文字 词 特点 对 标注 模 
型 进行 改进 , 取得 了 更 好 的 标注 效果 。 


2 相关 研究 


作为 经 典 的 序列 化 标注 任务 , 机 构 名 的 识别 一 直 
是 情报 学 关注 的 重点 之 一 。 近 年 来 ,以 循环 神经 网 络 
为 主 的 深度 学 习 方 法 在 序列 化 识别 领域 取得 了 新 的 进 
展 。 本 文 将 从 命名 实体 识别 和 循环 神经 网 络 两 个 方向 
对 相关 人 研究 进行 梳理 。 
2.1 命名 实体 识别 相关 研究 

命名 实体 的 识别 策略 主要 围绕 着 基于 规则 和 基于 
统计 两 种 方法 展开 , 但 以 统计 方法 为 主 比较 有 代表 
性 的 方法 如 下 。 孙 镇 等 从 技术 方法 和 评价 两 个 角度 对 
命名 实体 的 研究 情况 进行 了 系统 而 详细 的 论述 四。 在 
构建 的 内 部 和 外 部 规则 基础 上 , 潘 正 高 提出 了 基于 概 
率 统计 的 命名 实体 识别 策略 中 。 陆 伟 等 在 条 件 随机 场 
模型 的 基础 上 ， 完 成 了 对 产品 命名 实体 的 识别 中 。 从 
跨 语 言 检索 的 角度 ， 吴 丹 等 给 出 了 翻译 加 权 的 命名 实 


层 使 用 条 件 随机 场 (Conditional Random Fields, CRF) 
进行 解码 , 在 多 个 数据 集 上 对 词性 标记 、 组 块 分 析 和 
命名 实体 识别 任务 进行 验证 ， 发 现在 加 入 人 工 规则 和 
预 训练 词 向 量 后 ， 该 方法 达到 了 最 好 性 能 003。Ma 和 
Hovy 使 用 双向 LSTM-CNNS-CRF 模型 实现 了 端 对 端 
的 序列 化 标注 , 使 用 卷 积 神经 网 络 (Convolutional 
Neural Networks，CNNS) 对 每 一 个 词 学 习 出 字 级 别 向 
量 , 然后 将 字 级 别 向 量 和 词 向 量 拼接 成 一 个 加 强 向 量 ， 
输入 到 双向 LSTM 模型 中 , 最 后 使 用 条 件 随 机 场 进行 
解码 , 在 英文 词性 标注 和 命名 实体 两 个 任务 上 验证 了 
该 方法 09。 虽 然 在 英文 方面 已 经 有 研究 者 开始 探索 在 
循环 神经 网 络 中 增加 字 信 息 来 进行 建 模 , 但 中 文 方面 
尚 缺乏 类 似 研 究 。 英 文 和 中 文 在 字 和 词 上 有 较 大 的 差 
异 , 本 文 针 对 中 文字 和 词 的 特点 , 设计 了 新 的 算法 来 
使 用 汉字 信息 。 


3 ”系统 框架 和 模型 


3.1 系统 框架 
图 1 给 出 了 标注 系统 的 框架 ， 总共 分 4 层 。 最 下 


体 策略 中 。 基 于 条 件 随 机 场 , 王 文 龙 等 通过 统计 项 目 
申请 书 中 的 各 种 命名 实体 的 特征 , 构建 了 多 特征 知识 
下 的 命名 实体 识别 模型 趾 。 结 合 词性 与 知 网 的 外 部 语 
义 特征 知识 , 陈锋 等 结合 条 件 随 机 场 完 成 了 对 学 术 期 
刊 中 理论 这 一 实体 的 自动 识别 号 。 俞 鸿 魁 等 提出 一 种 
基于 角色 标注 的 中 文 机 构 名 自动 识别 方法 , 根据 在 机 


面 一 层 是 第 一 层 ， 原 始 模型 的 输入 为 词 ,本 文 提出 的 
字模 型 输入 字 和 分 词 标 记 。 第 二 层 为 向 量 映射 层 , 将 
第 一 层 的 输入 转化 为 对 应 的 分 布 式 表示 向 量 。 第 三 层 
为 循环 神经 网 络 层 , 图 中 展示 的 是 一 个 两 层 的 LSTM 
循环 神经 网 络 。 最 上 面 一 层 是 输出 层 , 循环 神经 网 络 
的 结果 在 这 一 层 被 转换 为 输出 标记 。 
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输出 标记 层 | 
循环 神经 网 络 


字 ( 滞 ) 向 量 映射 展 


输入 字 ( 词 ) 输入 1 输入 2 


本 文 改进 了 第 一 层 输入 层 和 顶层 输出 层 。 为 了 表 
述 简洁 , 下 面 直接 用 “LSTM”* 代 替 “LSTM 循环 网 络 ” 
因为 目前 LSTM 节点 只 能 应 用 于 循环 网 络 之 中 。 
3.2 ”循环 神经 网 络 相 关 模 型 

循环 神经 网 络 (Recurrent Neural Network, RNN) 是 
一 种 特别 适合 序列 化 标注 的 神经 网 络 模型 。 在 循环 神 
经 网 络 中 , 在 时 间 t 时 刻 输入 一 个 向 量 x, e R", 结合 
前 一 步 的 隐藏 层 向 量 h e R”*,， 生成 当前 的 隐藏 层 状 
态 向 量 ， 如 公式 () 所 示 : 

hi =f(Wx+Uh， +b) (1) 

其 中 ，W eR™ ，UeRnmm，beRm 是 模型 中 
的 系数 矩阵 , f 是 激活 函数 。 最 后 , 可 以 在 隐藏 状态 层 
之 上 加 上 Softmax 层 来 进行 分 类 任务 , 因此 , 可 以 理 
解 成 RNN 的 输入 是 x, 输出 是 h。 

从 理论 上 来 讲 RNN 可 以 保留 住 长 距离 记忆 , 但 
在 实践 中 ,由 于 梯度 消失 和 梯度 爆炸 现象 ,原始 的 
RNN 模型 难以 做 到 这 一 点 。Hochreiter 等 和 Sutskever 
等 对 原始 的 RNN 进行 改进 , 提出 了 长 短期 记忆 模块 
(LSTM), 通过 在 RNN 中 增加 记忆 模块 和 一 些 控制 阀 解 
决 了 长 距离 记忆 问题 ”I。 一 个 标准 的 LSTM 模块 加 
如 下 所 示 : 


i =c(Wixt+Uih 1 +b') 0O) 


fi=o(Wixt + Uh +b9) G) 
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输入 3 输入 4 输入 5 输入 6 
图 1 标注 系统 的 框架 


ot =o(W°x: + Uh:_1 +b") (4) 
gt =tanh(W8xi +Usgh，; +bs) (5) 
Ct=ft Oc 1 +t+it Ogt (6) 
hr =ot Otanh(ct) (7) 


在 t 步 , 通过 前 一 步 的 记忆 模块 c, | , 前 一 步 的 隐藏 
状态 hi, 和 当前 输入 x 来 计算 当前 步 的 隐藏 状态 h 和 当 
前 记忆 ct。o(") 和 tanh() 分 别 是 Sigmoid 函数 和 正切 函 
数 。i, fi ov gi 分 别 利用 前 一 状态 和 当前 输入 作为 控制 立 
来 控制 模型 的 输入 输出 ,以 及 记忆 的 转移 和 保存 。 由 于 
记忆 模块 的 转移 使 用 了 加 法 运算 符 , 在 进行 反 向 梯度 计 
算 时 解决 了 矩阵 乘法 带 来 的 梯度 消失 和 梯度 爆炸 现象 。 

在 LSTM 网 络 中 ， 如 果 将 多 个 隐藏 状态 层 释 加 ， 
低层 的 输出 作为 高 层 的 输入 ,这 就 形成 深层 长 短期 记 
忆 模 型 (Deep LSTM)。 简 单 的 LSTM 网 络 是 从 左 向 右 
依次 计算 的 ， 如 果 在 计算 隐藏 状态 时 同时 从 右 向 左 进 
行 , 则 称 为 双向 长 短期 记忆 模型 (Bi-directional LSTM)。 
如 无 特殊 说 明 , 下 面 的 基于 LSTM 的 序列 化 标注 方法 ， 
均 使 用 了 Bi-directional LSTM。 

3.3 ”基于 词 的 机 构 名 标注 模型 

使 用 LSTM 基于 词 进行 机 构 名 标注 相当 直观 ， 
2 给 出 一 个 机 构 名 标注 的 示例 。 最 下 面 一 层 是 输入 层 ， 
输入 层 的 每 个 词 属于 一 个 有 限 的 集合 词汇 表 V 中 间 
虚线 框 内 为 向 量 映射 层 和 LSTM 循环 神经 网 络 , 这 里 
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同 图 1， 所 以 隐藏 细节 。 最 上 面 一 层 是 输出 层 , 输出 了 
对 应 的 标记 , 标记 属于 一 个 有 限 的 集合 标记 表 S。 本 文 
使 用 三 元 标记 集 {B-ORG, LORG, S}, B-ORG 表示 机 构 
名 的 第 一 个 词 , LORG 表示 机 构 名 的 其 余 词 , S 表示 不 
属于 机 构 名 的 词 。 


LSTM 循 环 : 
神经 网 络 词 : 
向 量 映射 层 : 


ne - - - 


图 2 基于 词 的 机 构 名 标注 模型 示例 


LSTM 在 t+ 时 刻 的 输入 是 向 量 xt seR"， 因 此 要 将 
输入 的 词 ve V 转换 为 向 量 xe xt 称 为 vi 的 词 癌 量 。 设 
一 个 kxn 维 稠密 向 量 矩 阵 L,k 为 V 的 词 的 数量 , 则 工 
中 的 每 一 列 一 一 对 应 于 V 中 的 词 。 将 输入 词 w 转 换 为 
向 量 x。 只 需要 根据 v 在 V 中 的 序号 到 世 中 查找 即 可 。 
还 需要 根据 隐藏 状态 ht 计算 当前 的 标记 ss $ 的 概率 。 
这 里 使 用 简单 的 Softmax 函数 ， 如 公式 (8) 所 示 。 


LSTM 循 环 : 
神经 网 络 模型 : 
字 向 量 映射 层 : 
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ef(k) 
p(st =k)=—— ~ forkeS (8) 
e 


f() 将 状态 hi 线性 变换 为 实数 ，f(k) = wh, +bk， 
其 中 wi 为 n 维系 数 向 量 , bi 为 bias 项 。 本 文 使 用 交叉 
炉 来 计算 损失 函数 ， 时刻 t 的 损失 函数 为 公式 (9)。 

J(t) = -yi(k) log(p(st =k)) 
yi(k)=1 如 果 t 步 的 真实 标记 为 k， 否则 等 于 0 (9) 

总 的 损失 函数 为 每 一 步 的 损失 之 和 ， 如 公式 (10) 
所 示 。 

J= 2 S 2 ylog(pG =k)) (10) 


模型 需要 学 习 的 参数 包括 LSTM 本 身 的 参数 , 词 
向 量 和 矩阵 L, 计算 标记 概率 时 的 参数 we be k 对 应 于 
每 一 个 标记 。 

3.4 基于 汉字 的 机 构 名 标注 模型 

图 3 给 出 了 基于 汉字 的 机 构 名 标注 示例 。 在 输入 
层 , 输入 的 不 再 是 词 , 而 是 一 个 个 的 汉字 和 分 词 符号 
<GO>。<GO> 表 示 其 下 一 个 输入 字符 和 前 一 个 输入 字 
符 不 属于 同一 个 词 。LSTM 层 和 词 模型 没有 区 别 。 在 
输出 层 ， 只 有 <GO> 对 应 的 位 置 才 输出 标签 。 


~ 昌 昌 曲 申 昌 
人 


图 3 基于 字 的 机 构 名 标注 示例 


<GO> 这 个 标记 在 模型 中 起 着 关键 性 的 作用 ,一 
始 , 笔者 设计 的 模型 中 并 没有 <GO>, 而 是 直接 在 每 个 
词 的 最 后 一 个 字符 输出 这 个 词 的 标签 , 这样 会 和 现在 
的 做 法 在 标注 结果 上 有 一 定 差距 。 因 为 模型 中 的 每 一 
个 字 都 有 可 能 输出 标签 、 也 有 可 能 不 输出 , <GO> 实 际 
上 起 到 了 告诉 模型 输出 位 置 的 作用 。 在 序列 到 序列 的 
转换 模型 中 ， 比 如 神经 网 络 机 天 翻译 ， 先 按 词 逐 个 输 


置 计算 损失 函数 。 因 此 本 文 提出 新 的 总 损失 函数 如 下 : 
I= 3 = 之 -yonogpet=o UD 


i(t)=<GO> i(t)=<GO> 
其 中 , i(t) 表 示 第 t 步 的 输入 字 。 
如 果 按 照 测 试 集 的 输入 来 看 ， 中文 机 构 名 识别 的 
实验 设 定 有 两 种 。 第 一 种 是 输入 原始 文本 ,系统 构建 
ee ! 别 一 体 化 模型 ， 如 周 俊 生 等 的 研究 门 。 


人 一 串 源 语言 句子 , 在 句子 的 末尾 增加 一 个 <EOF> 标 
记 表 示 句 子 结束 , 在 <EOF> 开 始 输出 目标 语言 的 词汇 ， 
这 里 的 <EOF> 和 本 文 的 <GO> 标 记 起 着 相似 的 作用 。 
此 模型 输入 是 字 , 也 要 先 通过 一 个 查找 表 将 字 转 
化 为 字 向 量 输入 LSTM, 输出 时 只 在 <GO> 对 应 的 位 


二 种 是 在 分 好 词 的 语 料 上 进行 机 构 名 识别 , 如 潘 正 
A 本 文 的 设 定 按照 第 二 种 方式 进行 。 两 种 
设 定 都 有 可 能 用 到 字 特 征 ， 以 特征 模板 的 方式 呈现 ， 
但 与 本 文 的 用 法 完全 不 同 , 本文 是 直接 将 字 作为 基本 
单元 输入 。 
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4 实 验 


4.1 数据 集 和 评价 指标 

基于 北京 大 学 计算 语言 学 研究 所 发 布 的 1998 年 
上 半年 的 人 民 日 报 语 料 进 行 模 型 性 能 的 测试 。 人 民 日 
报 语 料 已 经 分 好 词 , 标注 了 机 构 名 ,机构 名 被 标注 为 
“nt”。 以 词 模型 为 基准 ， 验 证 字模 型 的 表现 。 在 实验 中 ， 
以 1998 年 2 月 份 的 数据 为 测试 集 , 1998 年 1 月 .3 月 、 
4 月 、5 月 和 6 月 的 数据 为 训练 集 。 对 于 词 模 型 , 根据 
训练 数据 建立 的 词 表 大 小 为 40 000, 包括 39 999 个 频 
数 较 高 的 词 和 1 个 罕见 词 标记 “RAREWORD”。 在 测 
试 集 中 , 凡是 在 词 表 中 没有 出 现 的 词 均 标记 为 罕见 
词 ,按照 相同 的 方法 , 笔者 建立 了 字 表 , 字 表 的 大 小 为 
5 500, 包括 5 498 个 频次 较 高 的 字 、1 个 罕见 字 标 记 
“RARECHAR” 和 1 个 分 词 符号 “GO”。 对 于 语料库 中 
的 词 、 字 和 罕见 字 词 的 统计 数据 如 表 1 所 示 。 在 测试 
集中 , 罕见 词 占 比 3.18%, 罕见 字 只 有 0.01%， 几 乎 可 
以 忽略 不 计 ， 这 说 明基 于 字 的 方法 将 更 少 遇见 未 登录 
现象 。 

表 1 ， 人民 日 报 1998 年 上 半年 语 料 统计 数据 


对 比 项 目 训练 集 测试 集 

词 数 6 137 295 1 149 581 
罕见 词 144 515 36 508 
字数 10 097 274 1 878 731 
罕见 字 90 218 


所 示 。 其 中 了 表示 标注 正确 的 机 构 数 ,，M 表示 测试 集 
中 的 机 构 数 , N 表示 标注 出 的 实体 数 。 


P=— 12 
局 (12) 
工 

R=— 13 
于 (13) 

F- 2xPxR (14) 
P+R 


4.2 ”参数 设置 

使 用 小 批量 随机 梯度 下 降 法 进行 反 向 梯度 传递 ， 
设置 批量 为 20, 初始 的 学 习 率 为 1.0, 在 第 5 轮 迭 代 时 ， 
开始 按 0.8 的 速度 减少 学 习 率 , 总 计 学 习 13 轮 。 词 模 
型 的 反 向 传递 的 最 大 步 数 为 35， 由 于 字模 型 的 步 数 要 
比 词 模型 大 , 将 字 反 向 传递 的 最 大 步 数 设 为 55。 初 始 
化 所 有 的 参数 为 -0.1 至 0.1 之 间 的 随机 分 布 。 为 了 防 
止 梯度 过 大 , 使 用 梯度 夹子 (Gradient Clipping) 技 术 并 
设置 为 5.0 1。 为 了 减轻 过 拟 合 现象 , 使 用 Dropout 技 
术 [ 吕 并 设置 为 0.8。 
4.3 ”实验 结果 

表 2 给 出 了 隐藏 层 为 2 层 ,， 隐藏 层 维度 为 650 时 
的 识别 结果 。“ 总 体 ” 指 模型 对 于 所 有 机 构 名 识别 的 性 
能 ,“ 包 含 罕 见 词 * 指 机 构 名 中 包含 一 个 或 者 一 个 以 上 
较 罕见 词 的 情形 。 可 以 看 出 ,总 体 上 ,字模 型 的 准确 
率 较 基准 要 高 1.23%， 召 回 率 高 1.82%,F 值 高 1.54%。 
在 罕见 词 上 的 表现 尤为 突出 , 准确 率 要 高 8.87%， 吾 


P 
(@® 


评价 机 构 名 标注 时 使 用 三 个 指标 , 分 别 是 准确 率 
P、 召 回 率 R 和 下 值 , 计算 方法 如 公式 (12)- 公 式 (14) 


回 率 超出 12.37%, F 值 超出 11.05%。 罕 见 词 的 指标 高 ， 
说 明 本 文 方法 在 迁移 到 不 同 的 语 料 时 ， 具 有 巨大 的 
优势 。 


表 2 字模 型 和 词 模型 的 机 构 名 识别 结 


总 体 包含 军 见 词 
人 准确 率 召回 率 准确 率 召回 率 F 值 
字模 型 91.87% 88.65% 90.23% 89.86% 76.96% 82.91% 
词 模型 (基准 ) 90.64% 86.83% 88.69% 80.99% 64.59% 71.86% 


对 标注 结果 进行 了 一 定 的 分 析 , 在 举例 时 ， 中 括 
号 括 起 的 部 分 表示 机 构 名 。 字 模型 误 标 机 构 名 时 ， 降 
低 了 模型 的 召回 率 ， 主要 情况 包括 两 种 。 第 一 种 是 语 
料 库 漏 标 或 者 有 争议 性 的 机 构 名 。 例 如 ,“ 电 气 化 局 
三 处 是 [铁道 部 ] 首 家 通过 ……” 语料库 中 漏 标 ， 
但 算法 可 以 正确 识别 ,类似 的 还 有 “[ 国 家 森林 管理 


现代 图 书 情报 技术 


局 ]” “曲靖 电厂] 等 。 有 争议 性 的 例如 “图 为 新 东安 
市 场 [中 安 天 平 图 书 中 心 ] 一 角 ” 但 模型 中 识别 为 
“图 为 [新 东安 市 场 中 安 天 平 图 书 中 心 ] 一 角 ” 根 
据 笔者 的 观点 , 字模 型 的 结论 也 有 一 定 的 道理 ,以 地 
址 为 机 构 名 前 级 也 并 无 不 可 。 第 二 种 , 将 罕见 的 地 名 
识别 为 机 构 名 , 这 是 因为 地 名 常常 是 机 构 名 的 一 部 分 ， 
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有 了 时 会 误 判 , 例如 “委内瑞拉 ”“ 瑞 士 ? 等 。 根 据 对 结 
的 观察 , 第 一 种 是 导致 召回 率 下 降 的 主要 因素 。 

字模 型 漏 标 机 构 名 时 , 降低 了 模型 的 准确 率 , 主 
要 有 以 下 儿 种 情况 。 首 先 , 最 多 情况 是 整体 标注 不 合 
法 。 一 个 合法 的 机 构 名 标注 应 当 以 B-ORG 开头 ,后 面 
的 是 TORG, 例如 “[ 中 俄 总 理 定期 会 晤 委员 会 ]” 
标注 为 “B-ORG LORG LORG I-ORG LORG LORG”, 
但 模型 中 标注 为 “B-ORG S LORG LORG LORG 
IORG”。 第 三 种 是 由 训练 语 料 不 足 导 致 的 , 例如 “[ 绵 
阳 国家 级 高 新 技术 产业 开发 区 了 ,在 模型 中 出 现 
多 次 识别 错误 , 这 是 因为 “ 锦 阳 ”在 训练 语 料 中 出 现 频 
次 较 低 ， 且 极 少 出 现在 机 构 名 中 , 所 以 模型 不 能 正确 
识别 。 

综 上 , 召回 率 的 错误 主要 是 因为 语料库 漏 标 或 者 
有 争议 性 标注 , 准确 率 的 错误 主要 是 由 于 语 料 不 足 和 
标注 不 合法 。 针 对 语 料 不 足 问 题 , 未 来 将 使 用 大 规模 
的 无 标注 语 料 来 训练 字 向 量 ,， 同 时 引入 多 任务 学 习 等 
技术 来 缓解 ; 对 于 标注 不 合法 问题 , 可 以 使 用 CRF 模 
型 对 于 输出 进行 约束 ， 更 为 精准 地 搜索 结果 。 


S 结 语 
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本 文 针对 汉字 和 词 的 特点 ,基于 循环 神经 网 络 中 
的 双向 深度 LSTM, 提出 汉字 级 别 的 中 文 机 构 名 标注 
模型 ,与 基准 的 词 级 别 模型 相 比 , 字模 型 在 识别 能 
上 有 明显 提高 , 特别 是 罕见 词 上 的 标注 能 力 要 大 大 超 
出 , 这 说 明 本 文 模型 在 迁移 到 新 语 料 时 有 很 大 的 优 
势 。 受 益 于 深度 学 习 的 特点 ,， 相 较 于 传统 的 特征 模板 
类 方法 , 本文 模型 是 完全 端 对 端的 , 不 再 依赖 于 人 工 
置顶 规则 , 更 为 简单 易 用 ,在 未 来 的 工作 中 , 将 进一步 
探索 其 他 深度 学 习 方 法 在 中 文 序列 化 标注 上 的 应 用 ， 
并 将 尝试 新 的 方法 以 提高 模型 的 标注 能 力 。 
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Recognizing Chinese Organization Names Based on Deep Learning: 
A Recurrent Network Model 


ZhuDanhao”” Yang Lei Wang Dongbo 
!(Library of Jiangsu Police Institute, Nanjing 210031, China) 
(Department of Computer Science and Technology Nanjing University Nanjing 210093, China) 
(Department of High Education, College of Nanjing Traffic Technician, Nanjing 210049, China) 
“College of Information Science and Technology Nanjing Agricultural University, Nanjing 210095, China) 


Abstract: [Objective] Chinese organization names are difficult to be recognized by computers due to their complex 
Structures and using of rare words. Successful recognition of these names plays significant roles in information 
extraction and retrieval, knowledge mining as well as institution research evaluation. [Methods] First, we redefined the 
input and output of organization names based on recurrent neural network method and nature of Chinese words or 
phrases. Second, we proposed a new model at the word level. [Results] Compared to the recurrent network models at 
the phrase level, the proposed method significantly improved the precision, recall and F value. Among them, the F value 
increased 1.54%. For organization names with rare words, the F value increased by 11.05%. [Limitations] We adopted 
a greedy strategy to find the local optimal values. A conditional random field method will yield better results from the 
global perspective. [Conclusions] The proposed method, which uses Chinese word level features, 1s easy to be 
implemented, and could generate better results than its phrase based counterparts. 


Keywords: Organization recognition Recurrent Neural Network Deep learning 


ACRL 推出 信息 素养 沙 盒 框架 


大 学 和 研究 图 书馆 协会 (Association of College and Research Libraries, ACRL) 框 架 咨 询 委员 会 (Framework Advisory Board, 
FAB) 于 近日 宣布 在 sandbox.acrl.org 上 推出 ACRL 信息 素养 沙 盒 框 架 。 

该 沙 盒 是 一 个 可 公开 访问 的 平台 和 资源 库 ， 能 帮助 图 书馆 员 及 其 教育 合作 伙伴 在 实践 和 专业 发 展 中 发 现 、 共 享 、 收 集 和 
使 用 与 ACRL 高 等 教育 信息 素养 框架 相关 的 正在 进行 的 工作 。 该 沙 盒 是 一 个 动态 资源 ,其 内 容 由 参与 框架 的 贡献 者 创建 。 

ACRL 总 裁 Iene M.H. Herold 说 :“ACRL 推出 了 这 种 创新 资源 ， 以 支持 在 各 种 类 型 的 学 术 环境 中 参与 该 框架 的 图 书馆 
的 需求 。 通 过 提供 发 现 和 共享 与 框架 相关 的 教学 和 专业 开发 资源 的 机 会 , 该 沙 盒 将 帮助 图 书馆 员 促 进 信息 素养 融入 学 4 
习 。 该 沙 盒 将 只 限 会 员 使 用 , 所 以 我 们 鼓励 大 家 都 来 参与 贡献 。” 

在 这 个 平台 中 , 游客 可 以 通过 搜索 符合 他 们 需求 的 材料 进行 浏览 和 贡献 ,与 他 人 分 享 自己 的 材料 。 当 图 书馆 员 发 现 适 用 
于 他 们 图 书馆 的 案例 , 或 者 发 现 正 在 研究 类 似 话题 的 其 他 人 时 , 该 沙 盒 将 促进 协作 。 

有 关 如 何 充分 利用 沙 盒 的 信息 ,请 参阅 沙 盒 帮助 中 心 。 
(编译 自 : http://acrl.ala.org/framework/?p=332) 


性 党 


HT TT 


(本 刊 讯 ) 


XIANDAI TUSHU QINGBAO JISHU 骤 %; 


